GPT-3:Language Models are Few-Shot Learners
Information
TL;DR
最近流行りの言語モデル(BERTなど)
Fine-tune型:大きなモデルが有り、1000個とか新しいデータでfine-tuneすることにより各タスクに特化させる
encoder型:空白を埋める・埋め込み
GPT-3が提案する言語モデル
Few-shot型:大きなモデルを用意して、数個のタスクを例題として与えるだけで、新しいタスクを解くことができる
decoder型:次を予測する
Important Features 1 : 言語モデルはfew-shotで解決する
https://gyazo.com/0194fbd45e805bfce545aa0e8dfae0d7
巨大なパラメータ数を増やして、one-shotでも高い成績が得られて、巨大にすればするほどfew-shotに強くなる
https://gyazo.com/a17c0b4888dbc3d189236c0f6cf02128
(言語モデルのfew-shot学習のイメージ)
Important features 2
few-shotでも様々なタスクでsotaやsotaに近いパフォーマンスが得られている。
https://gyazo.com/8b85023b0a68d0aaa81529c24931799e
https://gyazo.com/3321a427f72ef9fb59570bcb780ad06c
https://gyazo.com/c43f027df443c0055a204e3bd9376012